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摘要 : [目的 /意义 ] 面 向 出 版 业 进行 专业 领域 出 版 时 的 选 题 决 策 问题 ,对 互联 网 上 公开 的 资讯 动态 进行 多 
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型 与 发 展商 定 坚 实 基础 。[ 方 法 过程] 设计 一 个 情报 分 析 模 型 ,面向 出 版 选 题 决策 进行 专业 领域 的 热点 探测 。 
模型 包含 热点 发 现 与 热度 评价 两 个 过 程 。 热 点 发 现 过 程 ,通过 词 频 统计 和 词 增长 速度 算法 对 专业 领域 内 的 热 
点 进行 识别 ;热度 评价 过 程 ,从 内 容 层 面 和 传播 层面 两 个 维度 设计 并 计算 一 系列 指标 ,对 识别 到 的 热点 进行 热 
度 评价 与 排序 。[ 结果 /结论 ] 以 2018 年 1 月 至 4 月 的 36 550 条 信息 、 通 讯 和 技术 领域 多 源 中 文 信息 为 样本 进 
行 热点 探测 实验 ,实验 结果 表明 ,设计 的 热点 探测 模型 可 以 有 效 地 探测 专业 领域 内 的 热点 ,辅助 出 版 业 科学 地 


办 行 专业 领域 选 题 决策 。 
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热点 探测 


热点 发 现 热度 计算 热度 评价 


“互联 网 + ”与 大 数据 时 代 的 到 来 ,为 传统 产业 带 
瑟 有 新 的 机 中 与 挑战 。 传 统 出 版 业 需 要 适应 数字 化 的 
浪潮 ,借助 信息 技术 迅速 地 获取 行业 数据 、 掌 握 消费 者 
与 谢 场 的 动态 ,这 要 求 出 版 业 对 热点 话题 变化 和 大 众 
阅读 风向 进行 全 面 有 效 地 探测 与 分 析 , 为 消费 者 提供 
契 众 值 的 动态 内 容 。 图 书 的 选 题 策划 ,作为 出 版 流程 
的 徊 端 编辑 环节 ,会 由 专业 领域 出 版 商 的 策划 编辑 全 
面盆 析 市 场 的 发 行销 售 数据 以 及 公开 的 资讯 动态 来 有 
效 抠 进行 选 题 决策 。 通 过 对 多 源 信息 的 广泛 整合 与 深 


对 专业 领域 热点 的 探测 ,属于 情报 分 析 中 的 热点 
探测 与 与 情 分 析 范 畴 ,研究 人 员 对 此 进行 了 广泛 的 研 
究 ”: 。 在 图 书 情报 领域 ,对 某 一 专业 领域 内 的 研究 执 
点 进行 探测 时 ,通常 采用 文献 计量 、 共 词 分 析 、 词 语 社 
区 发 现 等 方法 ““ ,而 针对 政府 ,企业 的 资讯 动态 进行 
监测 与 分 析 时 ,一 般 通 过 词 频 统计 词语 重要 性 排序 等 
步骤 ,通过 与 情 分 析 完 成 热点 的 识别 与 提取 "“” 。 在 
热度 计算 方面 ,词语 的 重要 性 及 词语 出 现 总 量 ,词语 增 


度 分 析 , 可 以 完成 专业 领域 热点 的 探测 与 分 析 , 从 而 辑 
助 出 版 业 通过 数据 驱动 进行 科学 的 选 题 决 策 ,为 出 版 
业 的 数字 化 发 展 葛 定 坚实 的 基础 。 目 前 ,出 版 业内 已 
建设 的 数字 化 平台 多 聚焦 于 电 商 销售 和 自 媒 体 运 营 等 
终端 营销 服务 ,在 选 题 策划 等 前 端 编辑 环节 内 , 则 缺乏 
相关 信息 平台 提供 有 效 的 数据 分 析 与 支撑 ”。 即 使 是 
在 出 版 业 广泛 使 用 的 “开卷 "数据 平台 上 ,也 仅 在 出 版 
商 \ 发 行商 与 零售 商 间 对 已 出 版 图 书 的 发 行 与 销售 等 
市 场 数 据 进 行 了 监控 ,而 没有 扩展 到 互联 网 上 公开 的 
资讯 动态 1。 
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长 率 等 指标 常 被 用 于 衡量 词语 的 热度 ,而 对 词语 热度 
指标 的 综合 性 评价 ,通常 基于 群体 决策 法 和 德尔 非法 
进行 ,通过 层次 分 析 完 成 指标 的 赋 权 ,再 应 用 模糊 方法 
对 热度 进行 准确 客观 的 综合 性 评价 ””。 针 对 图 书 
出 版 行业 的 选 题 决策 过 程 ,也 有 研究 人 员 基 于 图 书 出 
版 行业 的 实际 数据 ,进行 了 选 题 决 策 分 析 模 型 的 研 
究 ” ,该 研究 从 作者 .图书 、 出 版 商 \ 市 场 和 图 书馆 等 多 
个 角度 设计 了 指标 评价 体系 ,构建 了 出 版 选 题 决策 模 
型 ,并 利用 图 书 的 发 行 与 销售 数量 等 市 场 数据 以 及 电 
商 网 站 与 社交 平台 上 的 用 户 评分 数据 ,参照 中 图 分 类 
号 及 电 商 网 站 图 书 分 类 中 的 主题 类 别 , 对 已 发 行销 售 
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的 图 书 按照 不 同 的 主题 进行 了 热度 统计 与 分 析 。 

针对 专业 领域 出 版 的 图 书 选 题 策划 ,除去 已 发 行 
销售 图 书 的 市 场 数据 与 用 户 评分 数据 之 外 ,政府 ,企业 
及 研究 机 构 的 资讯 动态 也 是 策划 编辑 进行 选 题 决策 时 
所 要 参考 的 有 效 数据 。 因 此 ,如 何 基于 互联 网 公开 的 
多 源 资讯 动态 探测 专业 领域 内 的 热点 ,并 对 热点 的 热 
度 进行 多 元 ,客观 地 评价 与 排序 ,为 专业 领域 出 版 时 的 
选 题 策划 环节 提供 有 效 的 数据 支撑 ,是 出 版 业 数 字 化 
发 展 与 转型 的 过 程 中 亟待 解决 的 问题 。 笔 者 设计 了 一 
个 专业 领域 热点 探测 模型 ,以 政府 公报 与 行业 新 闻 \ 专 
业 机 构 在 官网 . 微 博 、 微 信 上 发 布 的 动态 以 及 科技 文献 
等 多 源 信息 为 基础 ,通过 专业 领域 热点 发 现 和 热点 主 
题 热度 评价 两 大 过 程 ,实现 了 对 专业 领域 热点 的 探测 。 
在 模型 的 热点 发 现 过 程 , 通 过 TF-IDF 词 频 统计 和 词 增 
长 速度 算法 对 专业 领域 内 的 热点 进行 了 识别 。 在 
模 者 的 热度 评价 过 程 , 则 从 内 容 层面 和 传播 层面 两 个 


的 数字 资源 和 网 络 资源 的 持续 性 增长 ,对 学 科研 究 热 
点 进行 探测 的 研究 对 象 逐渐 扩展 到 了 包含 科技 文献 在 
内 的 各 类 信息 资源 ,对 于 这 些 数据 源 中 的 领域 热点 , 同 
样 可 以 利用 词 频 分 析 、 共 词 分 析 等 方法 进行 探测 。 

从 学 科 领 域 研究 内 容 的 层面 来 划分 ,领域 研究 热 
点 可 以 分 为 一 般 流行 研究 热点 和 潜在 重要 研究 热 
点 。 一 般 流行 热点 ,往往 集中 于 一 些 新 出 现 的 理论 
概念 和 重要 技术 ,研究 者 数量 较 多 ,文献 数量 相对 较 
大 。 从 总 体 上 ,这 些 文献 可 以 反映 一 个 时 期 的 研究 关 
注 热点 ,该 类 研究 热点 可 能 在 其 他 专业 领域 中 也 具有 
较 高 的 流行 度 ;潜在 重要 研究 热点 ,往往 具有 较 强 的 专 
业 性 ,即便 是 在 同一 时 期 ,不同 专业 领域 间 的 数量 差异 
也 很 明显 。 从 数量 上 看 ,此 类 研究 文献 往往 并 不 占有 
优势 。 相 反 , 只 有 那些 质量 较 高 的 专业 研究 文献 才 会 
对 此 类 热点 有 和 较 多 的 关注 。 所 以 ,被 引 量 较 大 的 文献 
所 具有 的 关键 词 应 当 比 被 引 量 较 少 的 文献 关键 词 更 能 


编 误 设计 并 计算 了 一 系列 参数 指标 !” ,通过 模糊 层次 
分 杨 法 对 识别 到 的 热点 进行 了 热度 评价 与 排序 。 笔 者 
谋 评 的 专业 领域 热点 探测 模型 ,聚焦 于 专业 领域 出 版 
时 驳 选 题 决策 问题 ,进行 了 情报 分 析 应 用 实践 。 
CN 专业 领域 内 ,各 类 研究 机 构 .政府 部 门 和 大 型 企 
业 僚 公开 发 布 大 量 资讯 动态 。 基 于 这 些 多 源 资讯 动态 
洲 往 的 热点 探测 工作 ,是 一 种 综合 的 情报 分 析 过 程 。 
对 峙 研究 机 构 的 动态 ,需要 依据 专业 领域 内 的 科技 文 
献 完成 学 科研 究 热点 的 探测 。 而 对 于 政府 企业 等 组 
级 的 资讯 信息 , 则 需要 针对 这 些 组 织 在 互联 网 上 公开 
发 布 的 相关 资讯 进行 与 情 热点 的 识别 与 分 析 。 因 此 ， 
笔者 从 研究 热点 和 与 情 热 点 两 个 方面 对 热点 探测 的 相 
关 研 究 进 行 了 梳理 ,同时 ,也 对 热点 热度 的 计算 与 评价 
方法 和 流程 进行 了 介绍 。 


针对 具体 学 科 领 域内 的 研究 热点 进行 探测 时 , 通 
常 以 科技 文献 为 研究 对 象 ,采用 文献 计量 、 词 频 分 析 、 
共 词 分 析 等 方法 进行 探测 "4 。 通 过 对 某 学 科 领 域内 的 
科研 文献 进行 词 频 分 析 或 引文 分 析 等 统计 计量 、 对 文 
献 集 合 中 的 高 频 关 键 词 或 高 增长 率 关 键 词 进行 共 词 分 
析 或 聚 类 分 析 等 关联 分 析 来 发 现 该 学 科 领 域内 的 研究 
热点 "“”。 常 采用 文献 题 录 工 具 SATI、 社 会 科学 统计 
软件 包 SPSS 及 引文 可 视 化 分 析 工 具 CiteSpace 等 软件 
进行 上 述 分 析 '” 。 虽 然 学 科 领 域内 的 研究 热点 大 多 
会 在 学 术 论 文中 展现 出 来 ,但 随 着 各 类 学 科 领 域 相关 


反映 潜在 重要 研究 热点 。 扩 展 到 专业 领域 内 的 多 源 资 
讯 动 态 信息 中 ,流行 热点 是 指 当 前 已 经 处 于 热门 状态 
的 热点 主题 ,这 些 热点 在 多 源 科 技 信息 中 会 占有 较 多 
的 数量 ,出 现 的 频次 较 高 ,并 且 政 策 方面 也 获得 了 较 大 
的 关注 ,而 潜在 热点 则 是 指 在 最 新 的 科技 文献 政府 公 
报 、 行 业 新 闻 与 专业 机 构 动 态 中 获得 了 较 大 关注 度 的 
数据 中 所 具有 的 一 些 新 的 关键 词 .主题 词 和 概念 ,在 后 
续 有 可 能 转化 成 为 热门 主题 。 
1.2 与 情 热 点 的 识别 与 分 析 

在 进行 僵 情 监测 与 分 析 时 ,一般 会 从 词语 主题 、 
有 件 等 不 同 的 层面 完成 奥 情 信息 的 揭示 。 在 微观 层 
面 ,通常 会 将 舆情 文本 中 的 重要 关键 词 进行 排序 展示 
来 完成 与 情 的 监测 及 其 后 续 分 析 。 词 语 频率 统计 和 词 
语 重 要 性 排序 等 方法 常 被 用 于 重要 关键 词 的 提取 ; 
在 中 观 层面 , 常 采用 隐 狄 利克 雷 分 布 (Latent Dirichlet 
Allocation ,LDA ) 等 主题 模型 "与 自 组 织 映 射 (Self-Or- 
ganizing Map ,SOM ) 等 聚 类 方法 ,以 主题 为 粒度 揭示 
熏 情 观点 。 对 与 情 文 本 中 的 热点 进行 识别 与 提取 ,是 
与 情 监测 与 分 析 的 基础 性 工作 。 

热点 识别 与 提取 ,通常 采用 词 频 统 计 与 重要 性 排 
序 的 方法 进行 “ , 即 从 基础 数据 集中 抽取 关键 词 并 统 
计 各 关键 词 的 出 现 频率 ,得 到 关键 词 列表 后 ,通过 计算 
词语 权重 , 按 重要 性 从 高 到 低 的 顺序 进行 排序 ,选择 一 
定数 量 的 关键 词 提 取出 来 。 在 抽取 关键 词 的 过 程 中 ， 
一 般 需 要 对 原始 文本 进行 中 文 分 词 .词性 标注 等 预 处 
理 ,再 依据 相关 专业 领域 的 主题 词 表 或 停 用 词 表 选取 
合适 的 策略 对 分 词 结果 进行 得 选 。 
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由 于 某 些 专业 领域 内 常用 的 基础 词汇 ,将 其 作为 


特征 、 信 息 传播 特征 以 及 内 容 特征 3 个 方面 来 进 


热点 的 重要 程度 不 足 , 所 以 ,为 了 突显 出 更 为 重要 的 词 


语 ,通常 选用 TF-IDF 算法 进行 词语 权重 计算 ”i。TF- 


IDF 算法 能 够 综合 考虑 每 一 个 关键 词 在 本 数据 中 出 现 
的 次 数 与 在 全 数据 集中 出 现 的 频率 进行 综合 词语 权重 
计算 ,这 样 可 以 尽 可 能 消除 常见 词语 对 后 续 热 点 识别 
与 探测 的 影响 。 但 对 于 近期 、 突 发 的 潜在 重要 热点 而 
言 ,由 于 其 关键 词 的 分 散 度 较 高 ,与 大 部 分 文本 集 关键 
词 的 差异 性 较 大 ,因此 传统 的 TFIDF 算法 并 不 十 分 适 
用 。 

针对 TF-IDF 算法 识别 弱 信号 较 差 的 情况 ,有 研究 
人 员 设计 了 单一 时 间 窗 口内 的 主题 词 增长 系数 及 跨 时 
间 窗 口 间 的 词汇 增长 速度 等 指标 来 对 这 类 词语 的 重要 
性 进行 量化 ,取得 了 一 定 的 效果 "。 在 一 些 研究 中 ,为 
区 好 地 揭示 与 情 监测 结果 的 整体 性 ,还 会 通过 主题 
模 动 .语义 分 析 等 方法 对 提取 到 的 关键 词 进行 进一步 
十 村 类 ” ” ,通过 对 各 类 和 伐 内 不 同 关键 词 之 间 的 关联 
控 虱 ,实现 对 与 情 热点 的 宏观 分 析 。 
1Rw 热度 计算 与 评价 


膏 到 的 指标 可 以 用 于 衡量 词语 热度 之 外 ,也 有 一 些 其 
他 的 指标 计算 算法 来 对 热度 进行 量化 。 例 如 克 林 伯 格 
于 002 年 提出 的 Burst Detection( 突 发 检测 ) 算 法 , 常 
局 拓 计 算 一 段 时 期 内 相对 增长 率 突 然 增加 的 焦点 词 在 
文 料 流 中 的 突 发 权重 指数 。 克 林 伯 格 认为 文档 的 
出 更 并 不 是 平滑 增长 ,而 是 在 一 定时 间 内 跳跃 式 增长 
的 迁 程 。 任 何 文档 中 的 词汇 都 可 以 被 描述 成 非 活跃 状 
态 和 bursty 状态 ,并 且 处 于 bursty 状态 的 等 级 根据 跳 
跃 的 剧烈 程度 而 定 。 克 林 伯 格 基于 状态 机 对 在 一 定时 
间 周 期 内 的 文档 中 的 词 进行 建 模 , 从 而 产生 出 词 在 这 
段 时 间 内 的 状态 转移 序列 , 即 ,标示 了 在 不 同 的 时 刻下 
词 所 处 于 的 状态 。 其 中 , 非 活跃 状态 对 应 的 状态 值 是 
0 ,其 他 处 于 bursty 状态 下 的 词 则 从 1 开始 递增 。 状 态 
值 越 大 , 则 说 明 该 词 在 这 段 时 间 内 越 活跃 。 因 此 ,Burst 
指数 完全 可 以 用 于 反映 一 个 时 间 段 内 各 个 热点 主题 的 
热度 。 

在 完成 多 项 衡量 热点 热度 的 指标 计算 后 ,需要 对 
些 指标 能 够 反映 出 来 的 热点 热度 进行 综合 评价 ,以 
终 确定 热点 的 排序 ,而 目前 在 学 术 界 还 没有 统一 的 
用 于 热度 评价 的 指标 体系 。 部 分 学 者 对 网 络 与 情 热 度 
及 微 博 热度 的 指标 体系 构建 做 了 大 量 的 研究 。 在 构建 
评价 熏 情 热度 或 微 博 热 度 的 指标 体系 时 ,通常 从 用 户 
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行 "1 。 微 博 意见 领袖 的 存在 , 便 体现 了 用 户 特 征 对 热 
度 的 影响 。 而 对 于 传播 特征 的 热度 影响 力 而 言 ,和 与 情 
文本 或 微 博 的 点 赞 率 .评论 率 、 转 发 率 等 传播 特性 可 以 
最 直观 地 反映 出 一 条 文本 引起 的 关注 热度 。 奥 情 及 微 
博 内 容 本 身 的 特征 对 热度 的 影响 ,体现 在 其 文本 内 容 
表现 的 情感 极 性 、 相 关 话 题 的 文本 数量 等 特征 上 "|。 
在 指标 确定 时 ,也 要 同时 确定 具体 指标 的 量度 方案 。 

指标 体系 构建 完成 后 ,需要 对 各 个 指标 进行 赋 权 ， 
来 对 鳞 情 文本 或 微 博 的 热度 进行 综合 性 评价 , 赋 权 值 
的 方法 通常 基于 群体 决策 法 并 结合 德尔 菲 法 的 思想 ， 
应 用 层次 分 析 法 来 确定 权 值 ”。 另 外 ,如 果 被 评价 对 
象 的 某 些 评价 指标 相对 模糊 ,导致 无 法 对 评价 对 象 做 
出 明确 的 结论 时 , 则 一 般 会 使 用 模糊 综合 评价 法 来 对 
这 些 指标 进行 计算 ,这 种 方法 以 模糊 数学 为 基础 ,应 用 
模糊 关系 合成 原理 ,从 多 因素 的 角度 对 评价 对 象 隶 属 
等 级 进行 综合 性 评价 ,能够 较 好 地 解决 评估 指标 和 评 
佑 标准 模糊 的 问题 ,减少 人 的 主观 腾 断 所 造成 的 影响 ， 
增强 评估 结果 的 准确 性 和 客观 性 。 
2 模型 设计 
2.1 数据 格式 

面向 出 版 选 题 决 策 的 专业 领域 热点 探测 模型 , 需 
以 具体 专业 领域 内 大 量 、 最 新 的 多 源 信息 为 基础 数据 。 
基础 数据 的 采集 ,对 于 科技 文献 信息 ,一 方面 要 通过 专 
业 领 域 相关 的 主题 词 在 中 国 知 网 ,万 方 数 据 平台 等 科 
技 文献 服务 平台 上 进行 科技 论文 的 检索 ,将 检索 到 的 
与 专业 领域 相关 的 科技 论文 的 标题 摘要 及 关键 词 等 
周 息 记录 到 数据 库 之 中 ,同时 还 要 记录 文献 的 发 表 时 
间 、 作 者 、 机 构 . 引 用 情况 等 信息 , 另 一 方面 , 则 需要 及 
时 录入 国家 科技 项 目 动态 的 信息 ,对 项 目 名 称 、 项 目 级 
别 .申报 书 名 称 . 申 报 人 .申报 单位 .申报 书简 介 和 经 费 
额 等 信息 进行 采集 ;对 于 政府 公报 与 行业 新 闻 信息 、 专 
业 机 构 动 态 信息 , 则 需要 专业 策划 编辑 预先 指定 具体 
的 信息 采集 来 源 , 如 专业 领域 的 政府 主管 部 门 .权威 行 
业 新 闻 机 构 .专业 领域 内 的 研究 团体 和 大 型 企业 等 机 
构 的 官网 微 博 、 微 信 公 众 账号 等 信息 发 布 渠道 平台 
等 ,再 针对 这 些 指定 的 来 源 进行 政府 公报 .行业 新 闻 和 
专业 机 构 动 态 的 标题 和 内 容 抓 取 , 此 外 ,对 微 博 和 微 信 
公众 号 文章 等 信息 还 要 采集 其 转发 量 .评论 量 \ 点 赞 量 
等 反映 传播 广度 的 数据 。 模 型 要 求 的 具体 基础 数据 格 
式 如 表 1 所 示 : 
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王晓光 , 王 宏 宇 ,， 黄 菌 .基于 多 源 数据 的 专业 领域 热点 探测 模型 研究 [Jj. 图 书 情报 工作 ,2019 ,63(14) :52 - 61. 
表 1 专业 领域 热点 探测 模型 基础 数据 格式 
采集 规范 
信息 类 别 与 来 源 
原始 输入 数据 字段 相关 数据 字段 
科技 文献 科技 论文 标题 摘要、 关键 字 时 间 , 作 者 ,作者 机 构 ,引用 情况 
科技 项 目 申报 书 名 称 , 简 介 时 间 , 项 目 名 称 .项 目 级 别 , 经 费 额 ,申报 人 ,申报 机 构 
政府 公报 与 行业 新 闻 官方 网 站 标题 .内 容 时 间 .机构 名 称 
新 浪 微 博 内 容 时 间 ,机构 名 称 ,转发 /评论 /点 赞 量 
微 信 公 众 号 文章 标题 .内 容 时 间 , 机 构 名 称 .点 先 量 
专业 机 构 动 态 官方 网 站 标题 .内容 时 间 、 机 构 名 称 
新 浪 微 博 内 容 时 间 ,机构 名 称 ,转发 /评论 /点 赞 量 
微 信 公 众 号 文章 标题 .内容 时 间 .机构 名 称 .点 先 量 


2.2 热度 评价 指标 

笔者 提出 的 专业 领域 热点 探测 模型 ,利用 了 层次 
分 析 法 的 思想 ,通过 走访 专家 调研 与 访谈 ,对 专业 领域 
二 总 热度 的 评价 指标 进行 了 多 层次 的 分 解 ,建立 了 每 


省 系 。 依 据 专业 领域 热点 热度 的 在 内 容 和 传播 两 个 
从 维度 确定 了 两 个 评价 准则 ,再 通过 分 析 不 同 评价 
维 订 中 可 获取 的 具体 指标 ,提出 了 8 个 具体 指标 。 所 
共识 提出 的 指标 均 与 专业 领域 热点 的 热度 呈正 相关 。 

[可 评价 指标 体系 与 指标 代表 符号 如 表 2 所 示 : 

CN 表 2 专业 领域 热点 探测 模型 热度 评价 指标 体系 

指标 层 ( 含 指标 代表 符号 ) 

Al 相关 文档 相对 数量 -+ 
A2 作为 特征 词 的 词 频 占 比 ~ 

A3 突 发 指数 热度 -b 
A4 缩放 速度 -v 

一 A5 缩放 加 速度 a 
= 传播 层面 B1 微 博 / 微 信 发 文 相对 数量 - 4 

= (B) B2 政府 公报 与 行业 新 闻 相对 数量 -1 

B3 转发 /评论 /点 赞 相对 数量 ( 相对 传播 广度 ) -e 


每 个 指标 的 具体 介绍 如 下 : 

(1) 内 容 层 面 (A)。 内 容 层 面 ,是 指 对 在 互联 网 上 
可 以 获取 到 的 与 专业 领域 相关 的 文献 .资讯 .新闻 \ 动 
态 等 从 内 容 上 分 析 专 业 领 域 热点 的 热度 。 主 要 依据 在 
当前 周期 内 采集 到 基础 数据 的 总 数据 量 、 包 含 相 关 热 
点 的 数据 量 以 及 与 前 儿 个 周期 内 的 数据 对 比 所 得 到 的 
突 发 指数 .缩放 速度 .缩放 加 速度 等 数据 进行 评价 。 

Al 相关 文档 相对 数量 :在 当前 时 间 周 期 内 采集 到 
的 所 有 基础 数据 中 ,与 某 一 候选 专业 领域 热点 相关 的 
数据 所 占 的 百分比 比重 。 取 符号 为 r。 

A2 作为 特征 词 的 词 频 占 比 :对 于 当前 周期 内 采集 
到 的 每 一 条 基础 数据 ,都 会 进行 特征 词 的 提取 ,得 到 其 
特征 词 列表 。 某 一 候选 热点 主题 被 作为 特征 词 的 数据 


数量 除 以 总 数据 量 的 比重 成 为 其 作为 特征 词 的 词 频 占 
比 。 取 符号 为 f。 

A3 突 发 指数 热度 :利用 元 林 伯 格 提出 的 突 发 检测 
算法 ,由 候选 专业 领域 热点 在 包含 前 几 个 时 间 周 期 在 
内 的 多 个 周期 内 的 突 发 态 和 非 突 发 态 之 间 的 代价 收益 
来 计算 突 发 指数 。 取 符号 为 b。 

A4 缩放 速度 : 某 一 候选 专业 领域 热点 在 当前 周期 
内 的 相关 文档 数量 除 以 该 热点 在 上 一 时 间 周 期 内 的 相 
关 文 档 数量 的 比 。 取 符号 为 v。 

A5 缩放 加 速度 : 某 一 候选 专业 领域 热点 在 当前 周 
期 内 的 相对 文档 数 除 以 该 热点 在 上 一 时 间 周 期 内 的 相 
对 文档 数 的 比 。 取 符号 为 a。 

(2) 传 播 层面 (B)。 在 传播 层面 ,主要 依据 与 专业 
领域 相关 的 专业 机 构 、 政 府 部 门 或 行业 新 闻 机 构 在 本 
周期 内 在 新 浪 微 博 、 微 信 公 众 号 上 的 微 博 、 推 文 的 总 量 
和 与 之 相关 的 转发 .评论 、 点 赞 的 总 量 ,以 及 政府 公报 
与 行业 新 闻 的 数量 来 进行 评价 。 

B1 微 博 / 微 信 发 文 相 对 数量 :在 当前 时 间 周 期 内 
采集 到 的 所 有 微 博 、 微 信 公 众 号 文章 中 ,与 某 一 候选 专 
业 领 域 热 点 相关 的 数据 占 全 部 候选 热点 微 博 、 微 信 公 
众 号 文章 数据 总 和 的 百分比 比重 。 取 符号 为 q。 

B2 政府 公报 与 行业 新 闻 相 对 数量 :在 当前 时 间 周 
期 内 采集 到 的 所 有 政府 公报 与 行业 新 闻 中 ,与 某 一 候 


忆 


与 行业 新 闻 数 据 总 和 的 百分比 比重 。 取 符号 为 t。 

B3 转发 /评论 /点 赞 相 对 数量 (相对 传播 广度 ) :将 
在 当前 时 间 周 期 内 采集 到 的 所 有 微 博 、 微 信 公 众 号 文 
章 中 ,与 某 一 候选 专业 领域 热点 相关 的 微 博 、 微 信 公 众 
号 文章 的 转发 量 .评论 量 及 点 赞 量 的 和 定义 为 该 热点 
的 传播 广度 。 该 热点 的 传播 广度 占 全 部 候选 热点 传播 


度 。 取 符 号 为 eo 
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2.3 ”模型 结构 及 探测 流程 
结合 文献 综述 部 分 的 相关 思路 和 解决 方案 ,最 终 
将 专业 领域 热点 探测 模型 设计 分 为 专业 领域 热点 发 现 


流行 热点 列表 含 热 度 及 排序 ) 


< 


与 项 目 


加 基础 数据 采集 完成 后 ,需要 对 基础 数据 中 的 各 原 
始 输 入 数据 字段 进行 拼接 ,将 拼接 后 的 字符 串 经 过 中 


E 缚 词 去 除 停 用 词 后 所 得 的 词 列表 ,作为 原始 输入 数 


能 到 的 包含 n 份 数 据 的 原始 输入 数据 集合 。 则 D = 
10ND,,…,D,| ,其 中 ,D, 表示 采集 到 的 第 i 份 数 据 ， 
每 纵 数 据 中 包含 若干 个 词 1T ,T,,…,T;,…| 。 
SC 下 面 ,将 结合 模型 的 热度 评价 指标 体系 以 及 总 体 
结 知 , 对 专业 领域 热点 探测 模型 的 具体 流程 分 步骤 进 
行 简要 的 介绍 : 
<(1 ) 特征 词 提取 。 模 型 的 第 一 步 ,是 对 原始 输入 
数据 集 D 中 的 每 一 条 数据 D, 的 词 列 表 提取 其 特征 词 
列表 的 过 程 。 首 先 通过 分 词 ,去除 停 用 词 等 过 程 对 每 
一 条 数据 的 词 列表 进行 过 滤 , 得 到 每 一 条 数据 的 特征 
词 列表 。 之 后 ,再 通过 TFJIDF 算法 以 及 词 增长 速度 算 
法 对 获得 的 特征 词 综合 进行 词语 权重 的 计算 。TF-IDF 
算法 能 够 综合 考虑 每 一 个 特征 词 在 本 条 数据 中 出 现 的 
次 数 与 在 全 数据 集中 出 现 的 频率 进行 综合 的 词语 权重 
计算 ,这 样 可 以 尽 可 能 消除 常见 词语 对 后 续 热 点 识别 
算法 的 影响 ,突显 出 重要 的 词语 。 词 增长 速度 算法 可 
以 更 加 关注 于 近期 突 发 的 潜在 重要 热点 ,使 这 类 词语 
能 够 被 关注 到 。 

依据 相关 文献 , 词 增长 速度 算法 的 公式 见 公式 
(1) 。 其 中 ,Gu ,表示 当前 周期 T=t 内 采集 到 的 原始 输 
入 数据 集合 D 中 某 个 数据 的 词 列表 中 的 词 k 的 词汇 增 
长 速度 。 
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和 热点 主题 热度 计算 两 大 过 程 ,专业 领域 热点 探测 模 
型 总 体 结构 如 图 1 所 示 : 


潜在 热点 列表 ( 含 热度 及 排序 ) 


传播 层面 
参数 计算 


图 1 专业 领域 热点 探测 模型 总 体 结构 


F.,+sp spt+F..* (t-ut+1) 
sp+ EP, 
公式 (1) 
其 中 ,F, ,表示 时 间 窗 口 T=t 中 词汇 k 的 词 频 ,t- 
u+1 是 回溯 窗口 的 大 小 ( 即 计算 的 回溯 窗口 为 时 间 周 
期 T=u 到 时 间 周 期 T=t) ,mean(F,，) 表 示 回 漳 窗 口 
中 词 k 的 平均 频 度 ,% 是 一 个 平滑 系数 ,由 公式 (2) 给 
出 。 


mean(F )+sp 


w= 公式 (2) 

在 公式 (2) 中 ,length(D,) 表示 时 间 窗 口 T=u 内 
采集 到 的 原始 输入 数据 集合 的 词 数量 ,而 1V, | 表示 时 
间 窗 口 了 =u 内 采集 到 的 原始 输入 数据 集合 中 包含 的 
词 项 数 ( 即 含有 多 少 个 不 同 的 词 )。 

(2) 候选 热点 识别 。 模 型 的 第 二 步 ,是 在 特征 词 
列表 的 集合 中 进行 候选 热点 的 识别 ,具体 步骤 如 下 :将 
集合 D 中 全 部 数据 的 特征 词 列表 合并 , 取 构 成 的 新 集 
合 中 词 频 最 高 的 若干 个 词 作为 候选 流行 热点 。 对 于 洪 
在 热点 的 识别 ,需要 依据 集合 D 中 每 条 数据 对 应 基础 
数据 中 的 机 构 名 称 、 作 者 等 相关 数据 字段 对 各 条 数据 
进行 赋 权 (机 构 和 作者 越权 威 传播 越 广泛 的 数据 权重 
越 高 , 取 自 然 数 ) 。 之 后 ,对 特征 词 列表 集合 中 的 每 条 
数据 重复 其 权重 次 数 后 进行 合并 ,新 构成 的 集合 中 记 
频 最 高 的 若干 个 词 即 为 候选 潜在 热点 。 

(3) 内 容 层面 参数 计算 。 模 型 的 第 三 步 ,在 得 到 
候选 热点 主题 列表 后 ,要 完成 对 这 些 候选 热点 主题 的 
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内 容 层面 参数 计算 。 此 处 重点 介绍 模型 中 用 于 突 发 指 
数 热度 计算 的 Burst 算法 , 它 常用 于 计算 几 个 周期 内 相 
对 增长 率 突然 增加 的 词 在 文本 数据 流 中 的 突 发 指数 。 
对 于 突 发 指数 ,首先 利用 Burst 算法 对 当前 周期 内 候选 
热点 T, 的 收益 C, 进行 计算 ,如 公式 (3) 所 示 叫 ] ; 


叫 | -je RZN)"(1 -8 RN | - 


叫 | -ja a-RD "| 公式 (3) 


其 中 ,B 为 算法 的 经 验 值 ,r 表示 集合 D 中 包含 词 
Ti 的 数据 个 数 ,N 表示 几 个 周期 内 所 有 数据 汇总 的 集 
合 D' 中 的 数据 个 数 ,R 表示 集合 D' 中 包含 词 T 的 数据 
个 数 。 突 发 指数 热度 通过 累加 几 个 周期 内 候选 热点 的 
昨 状 计算 而 得 。 
缩 放 速 度 是 前 后 两 周期 内 包含 候选 热点 Ti 的 数 
数 的 比 。 缩 放 加 速度 则 是 前 后 两 周期 内 包含 候选 
Ti 的 数据 个 数 占 该 周期 内 数据 总 数 的 比重 的 比 ， 
渭 除 不 同 周期 内 数据 总 数 不 同 所 带 来 的 影响 。 

六 (4) 传播 层面 参数 计算 。 模 型 的 第 四 步 ,是 考虑 
到 给 实际 情况 中 ,对 于 专业 领域 内 的 热点 ,除去 基于 内 
容 局 面 进行 热点 热度 量化 之 外 ,还 会 考虑 到 大 众 传播 


阔 据 全 集 的 比重 ,由 于 政府 公报 与 行业 新 闻 这 一 类 别 
的 煌 据 更 为 严格 且 更 具 权 威 性 ,所 以 把 政府 公报 与 行 
业 新 闻 的 数量 占 比分 为 一 类 , 微 博 与 微 信 公 众 号 文章 
的 桥 量 归 为 另 一 类 来 计算 。 另 外 ,对 于 微 博 与 微 信 公 
众 号 文章 这 一 类 数据 ,从 传播 广度 的 角度 考虑 ,还 应 计 
算 与 某 一 候选 热点 主题 词 相关 的 微 博 与 微 信 公 众 号 文 
章 的 转发 .评论 \ 点 赞 量 的 相对 占 比 。 

(5) 热度 评价 及 排序 。 模 型 的 第 五 步 ,需要 结合 
模型 第 三 、 四 步 计算 得 到 的 两 类 层面 的 热点 热度 参数 
指标 ,通过 模糊 层次 分 析 法 确定 具体 的 评价 矩阵 ,进行 
两 类 候选 热点 热度 的 综合 评价 ,并 完成 对 候选 热点 主 
题 列表 中 热点 的 排序 。 由 于 在 内 容 层面 参数 .传播 层 
面 参数 这 些 热点 热度 评价 指标 之 中 ,存在 着 一 些 不 容 
易 被 明确 评价 的 因素 ,因此 ,利用 模糊 语言 变量 和 模糊 
数 可 用 于 量化 模糊 信息 的 特点 ,可 以 应 用 层次 分 析 法 
和 模糊 综合 评价 法 ,从 多 因素 的 角度 构建 评价 矩阵 ,对 
候选 热点 主题 的 热度 进行 综合 性 的 量化 评价 。 对 两 类 
热点 主题 候选 列表 分 别 进行 综合 评价 ,得 到 最 终 的 热 
点 热度 。 并 依据 最 终 的 量化 评价 结果 进行 排序 ,便于 


户 直 接 对 专业 领域 的 热点 进行 判断 ,同时 ,通过 对 几 
个 周期 内 不 同 热点 的 热度 变化 进行 分 析 , 可 以 完成 专 
业 领 域 的 热点 探测 和 分 析 。 

在 出 版 业 机 构 开 展 专业 领域 出 版 选 题 决策 实践 时 ， 
为 了 保证 专业 领域 热点 探测 模型 能 够 及 时 、 准 确 地 对 专 
业 领 域内 的 热点 进行 探测 ,模型 的 多 源 基 础 数据 及 模糊 
层次 分 析 法 确定 的 评价 矩阵 等 数据 需要 定期 进行 更 新 。 


3.1 数据 准备 

笔者 选择 信息 .通讯 和 技术 (Information Communi- 
cations Technology,ICT) 领域 ,对 其 2018 年 3 月 和 4 月 
的 选 题 热点 进行 了 探测 实验 。 由 于 潜在 热点 的 探测 需 
要 专业 策划 编辑 依据 基础 数据 采集 时 记录 的 相关 数据 
字段 进行 大 量 的 权 值 预 设 工 作 , 因 此 ,笔者 仅 就 流行 热 
点 进行 了 探测 实验 。 依 据 模型 的 基础 数据 采集 规格 ， 
利用 八 爪 鱼 数据 采集 器 怜 取 了 工信部 .科技 部 等 网 站 
上 的 政府 公报 数据 和 新 浪 、 搜 狐 等 门户 网 站 上 的 新 闻 
数据 ,并 利用 微 博 应 用 程序 接口 获取 了 与 “通讯 “科技 ” 
等 话题 相关 的 微 博 数据 ,同时 ,在 知 网 中 以 “互联 网 “ 信 
息 技 术 ” 等 为 主题 进行 检索 收集 了 科技 论文 数据 。 此 
外 ,为 了 计算 跨 时 间 周 期 的 突 发 指数 热度 .缩放 速度 与 
缩放 加 速度 等 指标 , 抓 取 了 2018 年 1 月 和 2 月 两 个 时 间 
周期 内 的 相关 数据 ,构成 了 本 文 的 初始 数据 集 。 

为 了 准确 实现 ICT 领域 的 流行 热点 探测 ,对 获取 
到 的 初始 数据 集 进行 了 预 处 理 , 过 滤 其 中 无 内 容 或 字 
数 较 少 的 文本 ,进而 形成 了 包含 36 550 条 文本 的 实验 
数据 集 。 实 验 数 据 的 分 布 情 况 见 表 3。 和 针对 该 数据 
集 , 通 过 下 Analyzer 工具 包 进 行 了 中 文 分 词 ,并 进一步 
构建 停 用 词 表 去 除了 实验 数据 中 的 标点 、 符 号、 代词 、 
介词 和 连词 ;同时 ,由 于 新 闻 内 容 中 通常 包含 其 来 源 信 
息 ,为 了 使 分 词 结果 更 加 准确 ,笔者 将 “搜狐 科技 “新 
浪 科 技 ” 等 短语 一 并 加 入 了 停 用 词 表 。 此 外 ,还 在 特征 
词 提 取 步 台中 ,通过 构建 非特 征 词 表 过 滤 了 “公司 ” 
“新 闻 ” 等 无 特殊 指 代 的 词语 ,从 而 保证 了 最 终 识别 出 


Se 


的 候选 热点 具有 更 高 的 可 理解 性 。 
表 3 实验 数据 分 布 情况 (单位 :条 ) 
政府 公报 及 
时 而 人 微 博 微 信 科技 论 合 i 
| 间 行业 新 闻 微 博 微 信 科技 论文 量 十 
2018 年 1 月 4734 2 326 1325 8 585 
2018 年 2 月 2 421 1 458 1.321 5 200 
2018 年 3 月 3.393 1 990 1 998 7 381 
2018 年 4 月 4 080 6 202 5 102 15 384 
合计 14 628 11 175 10 747 36 550 
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3.2 ”实验 结果 

实际 对 信息 .通讯 与 技术 领域 进行 流行 热点 探测 
实验 时 ,要 确定 热点 热度 评价 指标 体系 中 准则 层 及 各 
准则 内 具体 指标 项 间 的 权重 ,以 便 最 终 得 到 可 量化 的 
热度 计算 结果 。 笔 者 对 信息 .通讯 与 技术 领域 开展 专 
业 出 版 的 代表 性 出 版 机 构 一 一 电子 工业 出 版 社 、 人 民 
邮电 出 版 社 以 及 湖北 科技 出 版 社 的 7 位 专业 出 版 从 业 
人 员 进 行 了 多 轮 的 电话 调研 与 实地 访谈 ,充分 了 解 了 
专业 领域 出 版 的 整体 业务 流程 及 专业 领域 选 题 决策 的 
具体 影响 因素 ,通过 德尔 非法 确定 了 热度 评价 指标 体 
系 的 权 值 。 

由 专业 出 版 领域 的 多 位 专家 对 指标 的 重要 性 进行 
多 轮 比较 直到 构建 出 的 隶属 度 和 矩阵 通过 一 致 性 检验 


后 ,笔者 将 隶属 度 和 矩阵 转化 为 了 权 值 向 量 并 依据 各 个 
首 标 的 取 值 对 最 终 评价 目标 进行 了 综合 评价 。 根 据 信 
息 . 通 讯 与 技术 领域 专家 的 意见 和 相关 文献 
[1,12 ,25 ] ,对 该 专业 领域 热点 热度 评价 和 矩阵 的 权 值 向 
量 最 终 确 定 为 : 
准则 层 权 值 向 量 :(0.5 ,0. 5) 

指标 层 (A) 权 值 向 量 :(0.1 ,0.5,0.3,0.05 ,0.05) 
指标 层 (B) 权 值 向 量 :(0.2,0.5,0.3) 
取得 权重 值 后 ,按照 笔者 提出 的 模型 ,对 专业 领域 
热点 在 内 容 层面 和 传播 层面 的 参数 进行 计算 ,并 完成 热 
度 计 算 与 排序 。 按 照 各 个 参数 指标 和 最 终 热度 计算 结 
果 的 大 小 从 高 到 低 排列 ,得 到 的 1CT 领域 2018 年 3 月 和 
4 月 前 20 个 流行 热点 及 其 排序 如 表 4 和 表 5 所 示 : 


凯 | 


下 表 4 2018 年 3 月 ICT 领域 前 20 个 流行 热点 及 排序 实验 结果 
局 淮 。。 相关 文档 相对 。 作为 特征 词 的 。 突 发 指数 热度 。 缩放 (加 ) 速度 。 微 博 / 微 信 发 文政 府 公报 与 行业 。 相对 传播 广度 。 最 终 热 度 
数量 r 词 频 占 比 f b wa 相对 数量 4 。” 新 闻 相 对 数量 t e 计算 结果 
ss 中 国 区 块 链 用 户 拍照 智能 企业 视频 OPPO 
SS 技术 智能 区 块 链 OPPO 中 国 数据 手机 区 块 链 
G 数据 创新 亚马逊 独 角 兽 行业 技术 户 拍照 
N+ 服务 技术 汽车 区 块 链 视频 中 国 网 络 中 国 
Rn 企 媒体 传播 实效 区 块 链 R 务 人 工 智能 视频 
行 ， 智慧 出 版 拍摄 技术 行业 中 国 行业 
© 智能 荚果 媒体 CIS 创新 人 工 智能 服务 数据 
CN 人 工 智能 金融 算法 施耐德 民 务 户 工业 民 务 
> 创新 行业 选择 业 园 区 企 | 区 块 链 传播 企业 
2 区 块 链 数据 OPPO 金融 人 工 智能 美国 区 块 链 技术 
& 户 汽车 视频 实践 经 验 智慧 美元 教育 自 摄 
CE 美国 人 工 智能 拍摄 智慧 数据 创新 学 习 人 工 智能 
人 媒体 户 美国 发 区 手机 智能 数据 金融 
1 网 络 传统 智慧 算法 传统 智慧 此 界 智慧 
15 智慧 融资 技术 教育 此 界 金融 企 用 户 
16 美元 AI 网 络 上 市 户 网 络 技术 创新 
17 传统 阅读 AI 行业 网 络 汽车 | CIS 
18 金融 算法 施耐德 音乐 金融 媒体 金融 施耐德 
19 视频 传播 贷 币 汽车 选择 融资 创新 实效 
20 手机 音乐 音乐 中 国 媒体 手机 上 市 媒体 
表 5 2018 年 4 月 ICT 领域 前 20 个 流行 热点 及 排序 实验 结果 
排序 。 相关 文档 相对 作为 特征 词 的 。 突 发 指数 热度 。 缩放 (如) 速度。 微 博 / 微 信 发 文 ”政府 公 报 与 行业 。 相对 传播 广度 最 终 热度 
数量 r 词 频 占 比 f b 相对 数量 4 。” 新 闻 相 对 数量 t e 计算 结果 
1 科技 区 块 链 户 芯片 科技 科技 中 国 科技 
5 数据 数据 区 块 链 高 校 中 国 数据 视频 中 国 
3 技术 智慧 机 器 人 图 书馆 信息 腾 计 数据 芯片 
4 中 国 阅读 阅读 链接 智能 中 国 科技 高 校 
5 这 息 媒体 汽车 自动 化 链接 企业 户 数据 
6 发 展 智能 传播 教学 数据 技术 创新 链接 
7 服务 技术 模型 模型 智慧 服务 城市 信息 
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( 续 表 5 ) 
排序 相关 文档 相对 ”作为 特征 词 的 。” 突 发 指数 热度 ”缩放 (加 ) 速 度 微 博 / 微 信 发 文 ”政府 公报 与 行业 ”相对 传播 广度 最 终 热 度 
数量 > 词 频 占 比 f b wa 相对 数量 q ”新 闻 相对 数量 t e 计算 结果 
8 平台 图 书馆 建设 设计 视频 发 展 区 块 链 技术 
9 智能 链接 媒体 控制 平台 人 工 智能 技术 视频 
10 企业 科技 管理 头条 创新 二 二 发 展 自动 化 
11 系统 用 户 算法 阅读 企业 平台 建设 设计 
12 创新 网 络 视频 信息 技术 美国 数字 发 展 
13 人 工 智能 系统 美国 档案 服务 区 块 链 信息 控制 
14 网 络 算法 智慧 系统 发 展 证 息 网 络 系统 
15 智慧 汽车 技术 算法 建设 美元 金融 智慧 
16 用 户 人 工 智能 网 络 数据 手机 创新 智能 模型 
17 腾讯 创新 信息 智慧 人 工 智 能 智能 平台 平台 
18 建设 传播 AI 数字 网 络 系统 美国 智能 
19 设计 中 国 自动 化 传播 金融 智慧 服务 建设 
守 20 管理 苹果 发 展 视频 管理 网 络 手机 创新 
PP 
人 通过 表 4 和 表 5 ,可 以 进一步 探测 分 析 2018 年 3-4 月 间 我 国 ICT 领域 的 流行 热点 变化 趋势 ,如 图 2 所 示 : 
LO 
I 
二 加 | 
忆 E29 
日 2 
| 一 jr ， 
3 , 
GN - 
© 
CN | 一 
ep 5 
11 
8 0.1568 | 12 
es 5 会 眉 0.1537 | 13 
r= om57 | 硬 旺 | —> Hy 
© 15 | 0.1485 | BP 让 15 
16 | 0.1484 | 创新 \ 16 … 交 下 降 赵 势 
18 | 0.1440 2 4 203 
19 | 0.1422 
F 4 月 涨 至 前 20 词 汇 
图 2 2018 年 3 月 至 4 月 ICT 领域 流行 热点 变化 趋势 


通过 分 析 实 验 结果 可 以 发 现 ,笔者 提出 的 模型 较 
为 有 效 地 实现 了 对 流行 热点 的 探测 :2018 年 3 月 ,主打 
AI 拍照 的 新 手机 “R15” 的 发 布 让 手机 企业 OPPO 受到 
了 中 国 用 户 广 泛 的 关注 , 男 一 方面 ,在 金融 行业 内 快速 
发 展 的 区 块 链 技术 与 大 数据 人工 智能 等 技术 一 并 被 
我 国 的 互联 网 服务 企业 认定 为 未 来 技术 发 展 与 创新 的 
重点 ;2018 年 4 月 ,科技 领域 发 生 的 美国 对 中 兴 公 司 的 
制裁 事件 ,让 我 国 意识 到 国家 需要 系统 地 鼓励 高 校 科 
研 机 构 和 信息 技术 行业 实现 智能 芯片 的 自主 设计 和 自 


bundl 


动 化 建设 ,让 科技 创新 驱动 发 展 。 


4 总 结 与 讨论 


笔者 提出 的 面向 出 版 选 题 决策 的 专业 领域 热点 探 
测 模 型 ,依据 互联 网 上 公开 的 政府 公报 与 行业 新 闻 、 专 
业 机 构 动态 及 科技 文献 等 多 源 资 讯 动态 ,结合 内 容 层 
面 、 传 播 层 面 两 方面 的 要 素 , 通 过 特征 词 提 取 、 候 选 热 
点 识别 .内容 及 传播 层面 参数 计算 和 热度 评价 及 排序 
等 步骤 ,完成 了 专业 领域 热点 的 探测 与 热点 的 热度 计 
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算 , 实 现 了 对 专业 领域 热点 变化 趋势 的 探测 。 笔 者 提 
出 的 模型 有 助 于 从 事 专业 领域 出 版 的 相关 人 员 全 面 、 
多 维 的 对 专业 领域 内 的 热点 话题 变化 和 大 众 传播 态势 
进行 自动 化 地 探测 与 分 析 , 从 而 实现 由 以 往 的 以 经 验 
主导 的 选 题 决策 向 数据 驱动 下 的 科学 选 题 决策 的 提 档 
升级 。 同 时 ,本 文 也 为 出 版 流程 中 的 选 题 策划 环节 提 
供 了 切实 可 行 的 数据 分 析 支 撑 。 

笔者 聚焦 于 专业 领域 出 版 中 的 选 题 决 策 环节 , 系 
统 地 设计 了 一 个 基于 公开 多 源 资讯 动态 构建 的 专业 领 
域 热点 探测 模型 ,进行 了 情报 分 析 应 用 实践 。 模 型 结 
合 了 TF-IDF 与 词 增长 速度 两 种 算法 对 候选 选 题 热 点 
进行 了 词语 权重 的 计算 ,同时 ,从 两 个 维度 多 元 客观 地 
设计 和 选择 了 突 发 热度 指数 .缩放 速度 及 加 速度 ,传播 
广度 等 指标 参数 ,构建 了 面向 出 版 选 题 决策 的 热点 热 
度 评价 指标 体系 ,并 最 终 通过 模糊 层次 分 析 法 ,完成 了 
热 马 热度 的 评价 与 排序 。 通 过 2018 年 1 月 至 4 月 的 
363850 条 信息 .通讯 和 技术 领域 中 文 多 源 科技 信息 进 
行 丽 热 点 探测 实验 ,验证 了 模型 对 中 文 专业 领域 流行 
热点 的 探测 效果 。 
@ 出 版 机 构 实际 进行 专业 领域 出 版 时 ,会 经 历 一 个 
相对 复杂 的 选 题 决策 过 程 。 根 据 专家 调研 情况 ,在 策 
划 编 辑 提交 选 题 建议 后 ,中 小 型 出 版 社 多 采用 编辑 癌 
三 漳 选 题 讨论 会 的 形式 通过 群体 决策 进行 选 题 上 报 。 
渤 出 版 社 通常 会 采用 管理 信息 系统 对 多 级 参与 的 先 


题 泥 策 业务 流程 进行 管理 ,提高 选 题 决策 过 程 的 流转 


区 


效 染 。 之 后 ,各 出 版 机 构 需要 将 策划 完成 的 选 题 上 报 
主管 行政 部 门 , 待 获得 行政 审批 后 ,结束 整体 的 选 题 决 
请 程 。 笔 者 提出 的 模型 在 后 续 可 以 用 于 中 文 多 源 信 
息 的 自动 化 采集 ,处理 与 分 析 , 实 现 选 题 热 点 的 自动 控 
测 , 从 而 减轻 专业 领域 出 版 从 业 人 员 对 相关 选 题 资料 
和 信息 收集 .处 理 与 分 析 的 工作 量 。 另 一 方面 ,笔者 提 
出 的 模型 也 为 开展 后 续 专业 领域 的 产业 趋势 分 析 和 热 
点 追踪 咨询 黄 定 了 良好 的 服务 基础 。 

本 文 也 存在 着 一 些 不 足 。 例 如 ,模糊 层次 分 析 法 
是 一 种 依赖 于 群体 决策 和 专家 打分 的 评价 方法 ,因此 ， 
不 可 避免 地 具有 -一些 主观 性 的 缺点 ;同时 ,本 文 未 对 控 
测 到 的 专业 领域 热点 进行 进一步 聚 类 分 析 和 关联 分 
析 , 专 业 领 域 出 版 从 业 人 员 进 行 实际 选 题 决策 时 仍 需 
一 定 的 人 工 介 入 。 今 后 ,本 研究 将 尝试 基于 机 器 学 习 
的 算法 ,利用 历史 的 市 场 数据 训练 回归 模型 来 科学 、 自 
动 地 确定 各 评价 指标 的 权重 ,使 热度 的 量化 计算 结 
更 为 客观 精准 ;此 外 ,也 将 通过 聚 类 与 关联 分 析 模型 对 
选 题 热 点 的 探测 结果 进行 深入 挖掘 ,进一步 为 专业 领 
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Towards Professional Publishing: Research on Hotspot Detection 
Model Based on Multi-source Data 
Wang Xiaoguang: Wang Hongyu Huang Han” 
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“School of Information and Safety Engineering, Zhongnan University of Economic and Law，Wuhan 430072 

? > ‘Abstract. [Purpose/significance | In order to solve the problem of topic selection for professional fields in publish- 
ingsindustry, this paper integrates multisource dynamic information on the Internet to detect the hotspots for professional 
fg through multi-dimensional intelligence analysis. The data-driven topic selection is realized to lay a solid foundation 
fog the digitization transformation and development of publishing industry. [ Method/process | A intelligence analysis 
nD towards topic selection was proposed to detect hotspots in professional fields. The model was divided into two steps: 
th otspot discovery and the hotness evaluation. The hotspot discovery in this model identified hotspots in professional 
fi through word frequency statistics and the algorithm of word growth rate. Then, in the step of hotness evaluation, a 
GA of indices in the dimension of content and spread were designed to calculate and evaluate the hotness of the hotspots 
ideritified in the last step. [ Result/conclusion | A hotspots detecting experiment was conducted with 36,550 pieces of 
Cfese multisource dynamic information in the area of ICT collected from January to April of 2018, which verified the ef- 
fe oness of the proposed model. This model can be used in publishing industry to complete the step of topic selection 
scientifically. 
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为 了 进一步 推进 学 术 道德 建设 ,抵制 学 术 不 端 ,建立 公平 公正、 公开 的 学 术 交 流 生 态 环境 ,《 图 书 情报 工作 》 编 
辑 部 针对 学 术 不 端 屡 禁 不 止 等 问题 ,将 进一步 加 强 对 学 术 不 端的 惩戒 力度 ,对 一 稿 两 投 ( 多 投 ) 者 (尤其 是 第 一 作者 
和 通讯 作者 ) 列 人 黑 名 单 ,5 年 内 不 接受 其 投稿 ; 若 已 刊 发 论文 存在 一 稿 两 发 (多 发 ) . 抄 认 、 测 镭 、 造 假 等 各 种 学 术 
情报 工作 》 愿 


CH 


不 端 ,将 采取 撤 稿 在 期 刊 及 网 络 平台 公布 , 列 人 黑 名 单 .终身 不 接受 其 投稿 等 多 种 处 理 措施 《图 

与 学 术 界 .期 刊 界 同仁 一 起 坚决 抵制 学 术 不 端 ,推动 图 书馆 学 情报 学 及 相关 学 科 的 研究 健康 发 展 。 
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